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一 种 利用 情感 词 统计 信息 构造 文本 特征 表示 的 方法 
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摘 要 : 数据 表达 方法 和 文本 分 类 的 效果 密切 相关 。 文 本 分 类 中 常用 的 数据 表达 方法 主要 包括 基于 词典 的 共 现 频率 方 
法 、 基 于 隐 性 语义 空间 (LSA/SVD) 的 方法 、 基 于 和 神经 网 络 语言 模型 的 方法 。 提 出 一 种 利用 单词 的 统计 特征 创建 文本 分 

类 中 特征 空间 的 表达 方法 。 该 方法 利用 单词 的 七 种 常见 的 统计 特征 ， 通 过 相关 性 分 析 选 取 相 对 独立 的 统计 特征 创建 特 
征 空间 。 该 方法 能 够 有 效 降低 文本 向 量 空间 的 维度 , 同时 降低 了 语义 空间 内 的 计算 复杂 度 。 情 感 分 类 实验 的 结果 表明 ， 
与 现 有 的 单词 的 数据 表达 方法 相 比 ， 该 方法 能 够 显著 提高 分 类 算法 的 准确 率 和 召回 率 。 
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Novel method of using statistical information to construct feature 
representation in sentiment classification 


Han Tonghui, Yang Dongqiang, Ma Hongwei 
(School of Computer Science & Technology Shandong Jianzhu University, Jinan 250100, China) 


Abstract: Data representation is closely related to the performance of text classification method. There exist three typical 
methods, namely lexical co-occurrence, Latent Semantic Analysis (LSA) or Latent Semantic Analysis (LSA) or Singular value 
decomposition (SVD) , and various neural language models. This paper introduces a feature space construction method only 
using statistical information. The method first collects 7 types of common word’s statistical information, and then chooses 


independent features through correlation analysis, to contrast word feature space vector. This method can effectively reduce the 


dimension size of vector space models, and can effectively lower computation complexity in deriving latent semantic space. The 
sentiment classification results shows that in contrast with those current data representation methods, our method can 
significantly improve the accuracy and recall rates for different classifier. 
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计算 的 时 间 复 杂 度 为 O(m3), n 表示 数据 规模 ， 并 且 压 缩 操 作 合 

文本 的 数据 表达 是 文本 分 类 研究 的 基础 ， 目 的 是 将 单词 续 ”生成 的 低 阶 和 矩阵 解释 性 较 差 。 基 于 神经 网 络 语言 模型 的 方法 以 

换 为 可 以 被 计算 机 处 理 的 形式 。 文 本 的 数据 表达 方式 的 好 坏 直 ”单词 的 分 布 信息 为 依据 ， 通 过 多 层 神 经 网 络 得 到 词 向 量 ， 这 类 
火影 响 到 分 类 算法 的 准确 率 。 目 前 文本 的 数据 表达 方法 主要 包 ”方法 被 广泛 应 用 于 词义 相似 性 计算 钻 ， 与 基于 词典 的 方法 和 基 
括 基 于 词典 的 共 现 频率 方法 由、 基于 隐 性 语义 空间 (LSA/SVD) 。 于 隐 性 语义 空间 的 方法 相 比 ， 深 度 学 习 的 方法 具有 更 好 的 可 扩 
的 方法 四、 基于 神经 网 络 语言 模型 的 方法 J。 基于 词典 的 共 现 频 。 展 性 。 但 是 ， 相 较 于 基于 词典 的 共 现 频率 方法 ， 通 过 深度 学 习 
率 方 法 将 单词 在 词典 内 的 位 置信 息 和 单词 在 文本 内 的 分 布 频率 ”方法 生成 的 词 向 量 每 一 维 的 特征 是 难以 解释 的 ， 因 此 难以 对 词 
作为 文本 数据 表达 的 基础 ， 该 方法 简单 易 行 ， 但 是 该 方法 处 理 。 ”向 量 做 进一步 分 析 。Kim、Zhangl 7 等 人 利用 神经 网 络 直接 产 
大 规模 数据 时 会 生成 稀 琉 、 高 维 的 文本 矩阵， 降低 分 类 算法 的 “， 生 文本 的 特征 表示 ， 本 文 主要 研究 单词 表达 方法 对 文本 情感 分 


PT 


reas 


效率 。 基 于 隐 性 语义 空间 模型 的 方法 通过 词 -文档 矩阵 描述 单词 ”类 的 影响 ， 因 此 没有 将 利用 深度 学 习 的 方法 直接 产生 文本 特征 
在 文本 中 的 分 布 信息 , 通过 压缩 得 到 上 述 矩 阵 的 低 阶 近似 矩阵 ， 进行 分 类 的 方法 列 入 本 文 的 比较 范围 。 
通过 该 近似 矩阵 实现 文本 的 数据 表达 ， 该 方法 适用 于 文本 主题 本 文 提出 一 种 通过 组 合 常见 的 统计 特征 ， 实 现 单词 和 文本 


tt 


抽取 后、 单词 聚 类 欠 等 研究 中 。 与 基于 词典 的 共 现 频率 方法 相似 ”的 数据 表达 的 方法 。 统 计 特 征 根据 单词 在 文本 内 的 分 布 规 得 
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21 统计 特征 与 特征 值 计算 
根据 文献 [26] 中 关于 单词 统计 特征 的 描述 ， 选 取 七 种 分 布 
统计 特征 创建 单词 数据 表达 。 以 下 是 这 七 种 统计 特征 的 计算 公 
式 。 
2.1.1 统计 特征 
1) 信息 增益 (information gain, IG) 
言 息 增益 的 计算 公式 描述 如 下 : 
60)=s()x{-EP(C)xlogP(O)|- 
CEQ g (1) 
| > P(t)x -cnvoercn 
te{w,w} L Cea 
该 公式 在 原始 信息 增益 的 基础 上 乘 以 单词 的 情感 值 Sw), 
SO) 取 值 为 -1、1， 使 1G 可 以 映射 单词 的 情感 极 性 。 


2) 让 步 比 (odds ratio, OR) 
让 步 比 的 计算 公式 如 下 : 
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2.1.2 特征 值 计 算 
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IMDB 分 为 积极 性 评论 和 消极 性 评论 ，Orue 的 格式 为 
Ofake=<113,12387,334,12166>, 即 包含 和 不 包含 Yake' 的 积极 性 文 
本 的 频率 分 别 为 113、12387; 包含 和 不 包含 Yake' 的 消极 性 文本 
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6。 通过 Qrar 得 到 计算 'fake' 的 信息 增益 


和 让 步 比 所 需 的 概率 ， 结 果 如 表 1 所 示 。 


表 1 概率 计算 结果 
类 型 取 值 类 型 取 值 

P( fake) 0.0179 P| positive| fake) 0.5045 

P( fake) 0.9821 P(negative| fake) 0.4955 

P( positive) 0.5000 P( fake positive) 0.0090 
P(negative) 0.5000 P| fake| positive) 0.9910 
P| positive| fake) 0.2528 P| fake} negative) 0.0267 
P(negative| fake) 0.7472 P( fake|negative) 0.9733 


在 情感 词典 中 ,'fake' 被 标注 为 消极 性 情感 词 ,因此 S(fake)=- 


1。 经 过 计算 得 到 'fake' 的 信息 增益 : IG(fake)=-0.2324, 'fake' 在 积 
极 性 文本 中 的 让 步 比 : OR(fake,positive)=-1.1018, 在 消极 性 文本 
中 的 让 步 比 : OR(fake,negative)=1.1.18。 
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| CCatw) | ++ | CCaGw) | +++ | CCCat) | 
vé 
V7 


并 Vz~V7， 生 成 单词 最 初 的 
向 量 表达 形式 


[v | v2 |v | va | vs |v | v | 


单词 最 初 的 向 量 表达 形式 


相关 性 分 析 ， 保 留 独立 的 统计 特征 


单词 最 终 的 数据 表达 形式 


图 1 


词 向 量 的 创建 流程 


经 过 计算 得 到 单词 的 上 述 7 种 特征 值 ， 利 用 得 到 的 特征 值 


创建 特征 值 向 量 


VI~V7。 根据 在 3.1 中 描述 的 统计 特征 的 计算 
公式 可 知 , IG 与 DD 反映 单词 在 语料库 中 整体 的 统计 特 和 


量 了 四 和 7 的 维度 为 1， 而 OR~CC 记录 


内 的 统计 特征 ， 因 此 ， 向 量 V2~V6 的 维 


E, 向 
单词 在 不 同 极 性 文本 
ZKR, KP, AXK 


示 文 本 集中 包含 |Q| 类 文本 。 合 


VI~V7 构造 词 癌 量 Vw, HÈ 


为 5|8|+2。 使 用 情感 词典 中 的 所 有 词 向 量 构造 矩阵 ， 分 析 单词 


的 各 种 统计 特征 之 间 的 相关 性 ， 保 留 相对 独立 的 特征 。 


以 'fake' 对 应 的 词 向 量 y7 的 创建 过 程 为 例 ， 表 2 展示 了 
'fake' 在 文本 集 IMDB 中 的 统计 特征 。 
表 2 fake' 在 IMDB 内 的 统计 特征 
统计 特征 取 值 统计 特征 取 值 
IG(fake) -0.2324 LPR(fake.negative) 1.0838 
OR(fake positive) -1.1018 CHI(fake.positive) 0.0323 
OR(fake,negative) 1.1018 CHI(fake,negative) 0.0323 
MI(fake.positive) -0.0122 CC(fake.positive) -10.5477 
MI(fake,negative) 0.0072 CC (fake,negative) 10.5477 
LPR(fake positive) -1.0838 DD(fake) -0.0183 
利用 特征 值 创建 向 量 V17 ~V7 7， 得 到 'fake' 最 初 的 数据 表 


达 形 式 y'7， 格式 如 下 : 


1.0838,0.0323,0.0323,-10.5477,10.5477,-0.0 


分 析 词 向 量 
统计 特征 。 表 3 为 上 单词 的 统计 特征 在 IMDB 语料库 


ie Beene 1.1018, -0.0122,0.0072, -1 P 
183 


部 各 个 特征 之 间 的 相关 性 ， 选 取 相 对 独立 的 


的 相关 
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表 3 IMDB 内 统计 特征 之 间 的 相关 系数 


IG ORps OR Myos Mle LPRpos LPReeg CHlpee CHIsee CCpos CCwe DD 


1 0 
ORees 1 1 04 043 -099 099 005 005 -080 080 -040 
Ms O41 041 1 089 040 040 053 053 080 080 09 
MIes 043 043 089 1 042 042 026 026 -084 084 -097 
LPRpos 0.99 -0.99 040 -04 1 1 0.04 004 0.79 0.79 0.38 
LPRes 099 099 040 0.4 1 1 004 004 079 0.79 -038 
CHL 0.05 005 053 026 004 004 1 1 020 020 -036 
CH 0.05 0.05 -0.53 026 -0.04 004 1 1 0.20 020 -036 
CC pos 080 -080 080 084 079 0.79 020 020 1 1 081 


根据 统计 特征 之 间 的 相关 系数 ,选取 相对 独立 的 统计 特征 。 
实验 结果 表明 , 在 IMDB F, 将 相关 系数 绝对 值 小 于 0.85 的 两 
个 统计 特征 认定 为 相对 独立 时 ， 系 统 效 率 最 高 。 最 终 得 到 'fake' 


的 词 向 量 Y7 ， 格 式 如 下 : 


Vine =(-0.2324,-1.1018,-0.0122,10.0323,-10.5477) 
2.3 文本 的 数据 表达 
使 用 基于 词 袋 模型 (bag of words) 的 方法 构造 文本 的 空间 向 
量 模 型 。 构 造 文本 向 量 的 表达 式 如 下 : 


llexicon| 


V= >) signal(w,)x Vy (8) 
u=l 


其 中 : liexicom| 表 示 情 感 词典 内 单词 的 数量 ，v 表示 单词 在 词典 
中 的 编号 ，signal(ww) 为 符号 函数 ， 指 示 we 是 否 在 文本 了 中 出 
Bh, Æ WET 则 signal(w.)=1, EU] signal(w.)=0. 

将 语料库 中 的 文本 以 列表 的 形式 存储 ， 并 将 列表 命名 为 Zr 
读 入 情感 词典 工 。 从 Zr 的 表 头 位 置 读 取 文 本 7， 创 建文 本 空间 
向 量 Vy， 并 将 该 向 量 初始 化 为 0 向 量 ; 
TAIL 的 交集 ， 则 V= Vrt Vwo 

以 创建 文本 了 的 空间 向 量 模型 为 例 ， 介 绍 文本 向 量 的 构造 
过 程 。7T 选 自 IMDB， 具 体 表 述 如 下 : 


"Great movie and the family will love it! If kid be bore one 


遍历 了 工 ， 若 单词 w 属于 


出 


day just pop the tape in and you will be so glad you do!" 
W LE], TAL={'great',love','glad’: ,情感 词 'great'、'Iove' 
和 'glad' 的 数据 表达 格式 如 下 : 
Vo =(2.1278,0.9512,0.0783,4.5879,32.3725) 
VZ, = (1.3181, 0.8848, 0.0586, 2.3426, 25.5123) 
Vi 4 = (0.0300, 0.3760, 0.0029, 0.0042, 3.8565) 
该 文本 的 空间 向 量 Vr= Vereart Viove + Vown， 最 终 的 计算 结 
果 如 下 : 


V7 = (3.4759,2.2120,0.1398,6.9347,61.7413) 
3 ”文本 情感 分 类 测试 


本 文采 用 基于 统计 特征 的 单词 数据 表达 方法 、one-hot- 


2 http://mpqa.cs.pitt.edu/lexicons/ 
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vector 方法 、 基 于 词 频 的 方法 、 基 于 词 频 -压缩 的 方法 、 基 于 CNN 
创建 单词 数据 表达 的 方法 ， 得 到 情感 词 的 向 量 模型 ， 并 通过 
Word2Vec 提供 的 Google News 模型 直接 得 到 情感 词 向 量 , 通过 
对 测试 文本 进行 情感 分 类 ， 分 析 以 上 各 种 单词 数据 表达 方法 对 
分 类 算法 的 影响 。 其 中 ，one-hot-vector 方法 和 基于 单词 频率 的 
方法 为 传统 的 基于 词典 的 共 现 频率 单词 的 方法 ， 基 于 CNN 的 
单词 数据 表达 方法 属于 基于 神经 网 络 语言 模型 的 方法 。 
用 的 文本 集 分 别 为 IMDB 、yelp2013、yelp2014， 人 情感 词 : 
MPQA:。 上 述 文本 集 的 基本 信息 如 表 4 所 示 。 


表 4 文本 集合 的 基本 信息 


分 文本 各 类 情感 极 性 的 文本 的 数量 
文本 集 
类 总 量 highpositive positive neutral negative high-negative 
训 IMDB 2 25000 = 12500 = 12500 = 
练 -yelp2013 5 62522 17167 26057 11989 5130 2179 
集 yelp2014 5 183019 50312 72740 36346 16218 7231 
测 IMDB 2 25000 = 12500 = 12500 = 
ik yelp2013 5 8671 2447 3567 1607 751 299 
集 yelp2014 5 25399 7059 9946 5118 2221 1055 


图 2 展示 了 实验 的 基本 流程 ， 该 实验 包含 3 个 阶段 ， 第 一 
阶段 包含 三 个 步 又: 文本 预 处 理 、 统 计 单词 的 分 布 频率 、 特 征 
值 计算 ， 第 二 阶段 同样 包含 三 个 步骤 : 创建 词 向 量 、 相 关 性 分 
析 、 创 建文 本 向 量 空间 模型 ;第 三 阶段 的 任务 为 文本 情感 分 类 。 


CARE, 利用 统计 特征 
生成 情感 词 列 创建 词 向 量 
表 
ean) CN | 统计 情感 词 的 | |) | 相关 性 分 析 感 分 类 
上 原始 文本 V | | 分 布 频 率 i | a 
L 
创建 文本 向 量 
计算 统计 特征 空间 模型 
阶段 操作 第 二 阶段 操作 


图 2 实验 流程 图 


该 文 将 在 3.1 中 对 文本 预 处 理 操作 进行 详细 介绍 ， 第 一 阶 
段 第 2 步 操 作 统计 情感 词 在 各 种 情感 极 性 的 文本 内 的 分 布 频率 ， 
将 频率 信息 存 入 元 组 Q, 例如 'fake' 在 IMDB 内 的 分 布 信息 为 
Ofake=<113,12387,334,12166>, 根据 元 组 记录 的 信息 计算 情感 词 
的 7 种 统计 特征 ， 其 中 计算 方法 如 2.1.2 所 。 依据 2.2 的 描述 执 
行 第 二 阶段 的 前 两 步 操 作 ， 即 创建 词 向 量 、 相 关 性 分 析 ， 创 建 
词 向 量 最 初 的 表达 形式 ， 再 通过 相关 性 分 析 保 留 词 向 量 内 部 相 
对 独立 的 统计 特征 ， 最 后 得 到 词 向 量 的 最 终 形式 ; 根据 2.3 的 
者 述 ， 创 建文 本 向 量 空间 模型 ， 实 现 文本 的 数据 表达 。 最 后 执 
行 第 7 步 ， 将 生成 的 文本 向 量 送 入 分 类 器 ， 得 到 分 类 结果 。 
3.1 文本 预 处 理 

实验 之 前 对 上 述 文 本 集合 进行 如 下 操作 : 

a) 规 范 化 (normalization)。 将 文本 中 出 现 的 大 写字 母 转换 为 
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i 


ch 
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小 写字 母 ， 去 除 文本 中 包含 的 特殊 符号 ， 使 用 语义 相近 的 单词 e)Word2 Vec 模型 .通过 Word2Vec 对 谷歌 新 闻 语 料 库 (大 约 
蔡 代 文本 中 出 现 的 表情 符号 (例如 : ':-D' 一 happy、':-(' 一 'sad')。 ”包含 1000 亿 个 单词 ) 进 行 训练 得 到 的 单词 的 数据 表达 模型 。 该 

b) 词 干 处 理 (stemming)。 还 原文 本 中 出 现 的 名 词 复数 、 形 容 。 模型 包含 三 百 万 个 词 向 量 ， 由 于 模型 设置 的 缺 省 向 量 维度 为 
词 比较 级 \ 动 词 第 三 人 称 单数 形式 、 动 词 过 去 式 等 形式 的 单词 。 300， 因 此 实验 不 再 修改 向 量 维度 。 

c) 情 感 词 抽 取 。 被 抽取 的 单词 在 文本 集合 中 出 现 的 频率 大 实验 中 采用 基于 词 袋 模型 的 方法 创建 文本 向 量 空间 模型 ， 
于 BORG EIR 3 个 文本 集合 内 单词 总 量 ， 分 别 将 6 设置 为 15、 句 量 的 创建 方法 与 图 2 中 步骤 6 的 描述 相同 。 
35、55)， 并 且 单 词 属于 词典 MPQA。 3.3 文本 情感 分 类 

K 5 展示 了 预 处 理 操 作 结束 后 各 文本 集合 内 部 的 单词 总 量 、 实验 依次 选择 支持 向 量 机 (SVMD)、 朴 素 贝 叶 斯 (naive Bayes), 


Fa] 


单词 种 类 以 及 情感 词 种 类 的 统计 结果 。 


表 5 文本 集合 内 部 的 单词 信息 
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1914 


语料库 单词 总 量 单词 种 类 ”情感 词 种 类 
IMDB 6025237 7666 

yelp2013 9901789 54483 

yelp2014 30087844 98566 


3.2 创建 词 向 量 和 文本 向 量 


2660 


的 七 种 特征 值 创建 情感 词 向 量 ， 
分 析 后 得 到 在 
yelp2014 中 词 向 量 
统计 特征 组 合 为 : 


基于 统计 特征 的 单词 的 数据 表达 方法 根据 单词 在 文本 集中 
方法 如 3.2 所 述 。 经 过 相关 性 
IMDB 中 词 向 量 的 维度 为 5， 在 yelp2013 和 
的 维度 均 为 8。 实验 表 明 在 IMDB 中 最 佳 的 
IG. ORpos、 MIpos、CHIpos、CCpos; 在 yelp2013 


中 最 佳 的 统计 4 村 征 组 合 为 :IG、 ORhigh-pos s ORneutral、\ MJnes ` CHIhigh- 
pos CH neutral. CCyhigh-pos CChigh-neg; 在 yelp20 14 中 最 佳 的 统 计 
特 征 组 合 为 : IG; ORhigh-pos s ORneutral、\ MIneg ` CHlhigh-pos s CHIneutraty 


CChigh-pos、 CCpos o 


对 比 实验 中 情感 词 的 数据 表达 方法 分 别 为 :one-hot-vector 


方法 、 基 于 单词 频率 的 方法 、 基 于 CNN 的 单词 数 


Word2Vec 模型 ， 描 述 如 下 : 


a)one-hot-vector 方法 。 词 


向 量 


0、1 组 成 ， 


据 表 达 方 法 、 


句 量 长 度 等 于 


情感 词典 内 单词 的 数量 。 例 如 情感 词 为 w，u 表示 该 单词 在 情 
感 词典 中 的 序号 , 则 该 单词 对 应 的 one-hot-vector 向 量 的 第 u 位 
元 素 为 1， 其 他 位 置 的 元 素 均 为 0。 


b) 基 于 词 频 的 方法 。 该 向 量 的 创建 方法 与 one-hot-vector 方 


法 相似 , 向 量 长 度 等 于 情感 词典 内 的 单词 数量 ， 


在 情感 词 Wu 对 


应 的 词 向 量 中 的 TF-IDF 
0。 


， 第 u 位 元 素 为 wu 值 ， 


0o) 基 于 词 频 -压缩 
本 空间 模型 ， 再 通过 
置 压缩 后 文本 空 
yelp2014 的 文本 空间 多 


具有 最 佳 效果 。 


qd) 基于 CNN 创建 单词 数据 表达 的 方法 。 分 别 


SVD 分 解 和 矩阵 得 到 奇异 值 , 根 
间 的 ， 经 过 实验 可 知 ， 当 IMDB, 
E 度 分 别 设置 为 75、125、130 


其 余 元 素 均 为 


用 于 
其 中 


参数 为 Weka 设置 的 缺 4 


二 
E 
Py 


别 标 
点 中 


H- 


a 


较 高 


IN isk EIB SC ARH 


， 实 验 使 | 


SVM 分 类 算法 


数据 处 理工 
ME. 
的 核心 观 
用 该 平面 能 够 将 具有 某 一 类 特征 的 数 


点 是 通过 运算 找到 一 个 超 平面 


(ERAT! 


表明 SVM 算法 在 文本 情感 分 类 和 
4 


究 中 


决策 树 (decision tree) 、 随 机 森林 (random forest) 作 为 分 类 算法 ， 
的 数据 表示 方法 对 分 类 算法 效率 的 影响 程度 。 
L Weka 提供 的 分 类 器 ， 分 类 器 的 


„AI 


据 从 整个 数据 集中 分 离 。 
有 较 高 的 效率 已 。 


朴素 贝 叶 斯 是 一 种 简单 的 分 类 算法 ， 该 算法 求解 给 定 的 分 


决策 树 又 称 


岗 的 条 件 下 各 个 类 别 


率 最 大 的 类 别 。 朴 素 贝 叶 
b 件 过 滤 中 99。 
判定 树 ， 是 一 种 树 型 结构 ， 分 支 节 点 表示 对 某 
性 的 一 次 检测 ， 每 条 边 为 对 应 的 测试 结果 ， 
记 。 决 策 树 的 执行 过 程 从 根 节点 开始 ， 待 分 类 项 与 中 间 节 


的 效率 B0。 


。Buscaldi60 证 明 随 机 森林 在 语义 相似 性 


的 属性 进行 比较 ， 根 提 


型 中 

于 其 他 分 类 器 。 

4 ”实验 结果 及 分 析 

4.1 实验 结果 展示 
K6 


出 现 的 概率 ， 将 分 类 项 归属 于 出 现 


斯 分 类 器 被 普遍 应 用 于 文本 分 类 Pal 


叶 节 点 表示 类 


昌 比 较 结果 选择 对 应 的 分 支 ， 直 到 叶 
点 确定 待 分 类 项 的 类 别 。 决 策 树 算法 在 文本 特 生 


E 提 取 中 具有 


随机 森林 是 一 种 将 多 棵 树 集成 为 一 体 的 学 习 算 法 ， 该 算法 
的 基本 单元 为 决策 树 。 对 于 待 分 类 项 


， 多 棵 决策 树 会 有 多 种 不 
同 的 投票 结果 ， 随 机 森林 将 待 分 类 项 划分 到 投票 次 数 最 多 的 类 


的 方法 。 首 先 使 用 基于 词 频 的 方法 创建 文 


据 奇 异 值 设 
yelp2013 、 
时 ,分 类 器 


将 IMDB、 


yelp2013、yelp2014 作为 语料库 ，CNN 根据 情感 词 在 对 应 语 料 


库 中 的 分 布 信息 生成 单词 的 数据 表达 模型 。 生 成 词 


向 量 的 维度 


分 别 设 


LJ 5, 10, 20, 30, 40, 50, 60, ISE 


40 时 分 类 效率 达到 最 优 。 


明 向 量 维度 为 


有 更 高 的 ; 


统计 特 和 


F 进 


感 分 类 测试 中 具有 最 高 的 准 


EM, Fh 


朴素 DUE 


分 类 器 对 上 


计算 中 的 效率 优 


展示 了 文本 情感 分 类 的 结 ， 加 粗 字 体 表示 分 类 器 的 准 
确 率 能 够 达到 的 最 大 值 。 实 验 结果 表明 ， 与 
法 相 比 ， 基 于 统计 特征 创 
确 率 。 当 采用 
SVM 分 类 器 对 IMDB, yelp2013. yelp204 进行 情感 分 类 的 准 
率 依次 为 : 84.2%、50.4%、48.1%; 使 
述 文本 集 进 行 分 类 的 准确 率 分 别 为 : 81.0%, 39.6%, 39.1%; 使 
决策 树 分 类 器 的 结果 分 别 为 : 83.9%、42.6%、40.7%; 使 
机 森林 的 分 类 结果 依次 为 84.2%、49.3%、47.6。SVM 在 文本 情 


其 他 的 数据 表达 方 
建文 本 数据 表达 的 方法 使 分 类 算法 具 
行文 本 数据 表达 时 ， 使 用 


确 


HRE 


素 贝 叶 


斯 算法 更 适合 对 基 


于 词典 的 共 现 频率 方法 创建 文本 向 量 进行 分 类 测试 ， 随 机 森林 
的 分 类 效果 优 于 决策 树 的 分 类 效果 。 
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表 6 文本 分 类 结果 


Sb AG HE, 


中 出 现 的 单词 作为 独立 的 个 体 ， 因 此 ， 使 用 该 


等 : 一 种 利用 


C 
用 情感 词 统计 信 ， 


hinaX iv 


筷 构 造 文 


AEA 


表示 的 方法 


方法 创建 的 文本 


向 量 无 法 记录 单词 之 间 的 位 置信 息 ， 进 而 忽略 了 单词 间 的 语法 
Method IMDB yelp2013 yelp2014 、 TON ERAN om f 
j P R P R P R 依赖 关系 。 由 于 语言 表达 存在 领域 依赖 性 (domain dependence), 
one-hot-vector 77.6% 77.6% 492% 416% 461% 453% Fb P 32 m ary ea H ETIK H 
单词 频率 742% 742% 474% 46.2% 445% 43.7% 即 茶 些 单词 只 有 在 特定 类 型 的 文本 或 者 上 下 文 环境 中 才 具 有 表 
: 单词 频率 -压缩 “65.1% 65.1% 435% 44.7% 411% 42.6% 达 情 感 的 能 力 (例如 : ‘refund WRB AUR, 该 单词 通常 只 在 商 
Word2Vec 83.0% 83.02% 51.0% 499% 48.7% 47.3% 5 er Ge . te ara ; 
M G a a e oe wi Gee 品评 论 中 表达 消极 情感 ), 使 得 文本 集 内 存在 大 量 单词 具有 表达 
统计 特征 84.2% 84.2% 50.4% 51.5% 48.1% 48.3% 情感 的 能 力 , 但 是 这 些 单词 没有 被 MPQA 收录 。 因 此 ， 领 域 依 
one-hot-vector 79.8% 79.8% 44.2% 43.8% 42.8% 42.2% ee Shree 
单词 频率 81.5% 815% 424% 413% 40.1% 399% 赖 性 造成 文本 分 类 测试 的 情感 词 数量 不 足 ， 降 低 分 类 算法 的 准 
由 单词 频率 -压缩 70.9% 71.0% 39.1% 38.6% 354% 34.6% 确 率 。 对 比 四 种 不 同 的 分 类 器 可 知 , SVM 更 适合 对 文本 进行 情 
时。 Word2Vec 703% 703% 387% 395% 369% 361% 
5 CNN 59.0% 59.1% 35.7% 372% 34.2% 34.6% 感 分 类 ,与 朴素 贝 叶 斯 和 决策 树 相 比 , SVM 具有 更 高 的 准确 率 ， 
统计 特征 81.0% 81.0% 396% 403% 391% 393% each A ee eS x ne A Pan 
one-hot-vector 652% 652% 342% 340% 321% 324% H SVM 通过 计算 距离 实现 文本 分 类 ， 不 必 计算 文本 特征 的 
决 单词 频率 639% 639% 332% 329% 323% 320% FWA ZR AK. BIA alii e SVM 相当 ， 但 
单词 频率 -压缩 ”60.1% 60.1% 325% 326% 31.8% 32.1% E er 2 E 
CNN 59.6% 59.7% 32.1% 32.0% 30.9% 313% 里 大 规模 数据 。 
统计 特征 83.9% 84.0% 42.6% 44.0% 40.7% 41.3% = 
one-hot-vector 702% 702% 435% 433% 426% 426% 由 对 照 实验 可 知 ， 基 于 统计 特征 创建 单词 和 文本 的 数据 表 
cm a ee em Nak A 达 的 方法 能 够 有 效 降低 文本 向 量 的 维度 ， 具 有 隐 性 语义 空间 
机 单词 频率 -压缩 65.5% 65.5% 40.7% 40.1% 39.8% 39.4% n = . 
森 Word2Vec 79.6% 796% 45.1% 45.2% 446% 44.4% (LSA/SVD) 的 压缩 效果 。 基 于 统计 特征 创建 文本 向 量 的 方法 有 
林 CNN 653% 653% 42.7% 43.5% 409% 41.1% ah ee isa 5 
统计 特征 84.2% 84.3% 49.3% 50.9% 47.6% 48.1% 效 的 减 小 了 数据 规模 ， 降 低 了 分 类 算法 的 复杂 度 ， 相 较 于 基于 
Word2Vec 模型 的 单词 数据 表达 方法 和 one-hot-vector 方法 ， 该 
4.2 ”实验 结果 分 析 方法 具有 更 高 的 实时 性 ， 适 用 对 大 规模 文本 集 进 行情 感 分 类 。 
对 IMDB 文本 集 的 分 类 问题 属于 二 分 类 问题 ,对 yelp2013、 结束 语 
ee see o 结束 1 
yelp2014 文本 集 的 分 类 属于 五 分 类 问题 ， 实 验 结果 显示 ， 文 本 
情感 分 类 的 结果 显示 ， 所 有 分 类 器 在 二 分 类 问题 中 的 准确 率 明 本 文 提 出 一 种 通过 计算 单词 在 文本 集 内 的 7 中 常见 的 分 布 
显 高 于 在 五 分 类 问题 中 的 准确 率 。 产 生 该 现象 的 原因 有 以 下 三 特征 ， 并 且 将 七 种 统计 特征 进行 组 合 ， 以 低 维 向 量 的 形式 表示 
点 : a) yelp2013/14 内 文本 数量 庞大 ， 造 成 大 量 出 现在 单词 。 实 验 结果 显示 ， 与 其 他 单词 的 数据 表达 方法 相 比 ， 该 方 
yelp2013/14 中 的 情感 词 没 有 被 MPQA 收录 ; b) 词 典 MPQA 只 法 能 够 在 保证 分 类 算法 准确 率 的 前 提 下 ， 有 效 的 降低 算法 的 时 
包含 情感 词 , 忽略 了 由 非 情感 词组 成 的 情感 短语 , 例 "it was 间 和 空间 复杂 度 。 下 一 步 研究 将 检验 该 方法 用 在 文本 情感 分 析 
ontime"， 从 单词 层次 分 析 ，"it、"was'、'on' 和 'time' 单 独 在 文本 中 的 其 他 领域 中 的 作用 例如 : 假 新 闻 识 别 、 讽 刺 和 隐喻 分 析 、 情 
出 现时 均 不 具有 表达 情感 的 能 力 ， 但 是 从 短语 层次 分 析 ， 该 短 感 强度 计算 。 
语 表 示 " 闯 证 "， 在 客户 评论 中 能 够 表达 积极 性 观点 ; 
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